Kompressionsbasierte Mustererkennung
نویسنده
چکیده
3 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Kurzfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1 Einleitung 5 1.1 Mustererkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Kompression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Kompressionsbasierte Mustererkennung . . . . . . . . . . . . . . . . 10 1.4 Regularisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2 Theorie der NCD 13 2.1 Kolmogorovkomplexität . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Informationsdistanzmaße . . . . . . . . . . . . . . . . . . . . . . . . 22 2.3 Kompressionsdistanzen . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3.1 Eigenschaften der NCD . . . . . . . . . . . . . . . . . . . . 26 2.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3 Praxis der NCD 29 3.1 Kompressionsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.1.1 Huffmancodierung . . . . . . . . . . . . . . . . . . . . . . . 30 3.1.2 Lauflängencodierung . . . . . . . . . . . . . . . . . . . . . . 33 3.1.3 Lempel-Ziv Verfahren . . . . . . . . . . . . . . . . . . . . . 33 3.2 NCD auf diskreten Daten . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2.1 Anwendungsfall: Entity Identification . . . . . . . . . . . . . 36 3.2.2 Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.3 NCD auf kontinuierlichen Daten . . . . . . . . . . . . . . . . . . . . 64 3.3.1 NCD auf Grafiken . . . . . . . . . . . . . . . . . . . . . . . 64 4 Theorie der kompressionsbasierten Mustererkennung 67 4.1 Regularisierung und Sparse Coding . . . . . . . . . . . . . . . . . . 70 4.1.1 Matching pursuit . . . . . . . . . . . . . . . . . . . . . . . . 71 4.1.2 Basis pursuit . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.2 Vektorräume basierend auf redundanten Wörterbüchern . . . . . . . . 76 4.3 Der gewöhnliche Koordinatenabbildungsprozess . . . . . . . . . . . . 77 4.4 RDS Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.5 Die Projektion vektorieller und nicht vektorieller Daten auf Vektorräume, basierend auf redundanten Wörterbüchern . . . . . . . . . . . 82 4.5.1 Projektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.5.2 Tightening . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.5.3 Skalarproduktkernel . . . . . . . . . . . . . . . . . . . . . . 84 VI Inhaltsverzeichnis 4.5.4 Mathematische Demonstration . . . . . . . . . . . . . . . . . 85 4.6 Kompressionsbasierte Mustererkennung . . . . . . . . . . . . . . . . 87 4.7 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5 Praxis der kompressionsbasierten Mustererkennung 97 5.1 Diskrete Mustererkennung . . . . . . . . . . . . . . . . . . . . . . . 98 5.1.1 Genomgruppierung . . . . . . . . . . . . . . . . . . . . . . . 98 5.1.2 Gruppierung russischer Autoren . . . . . . . . . . . . . . . . 100 5.2 Kontinuierliche Mustererkennung . . . . . . . . . . . . . . . . . . . 102 5.2.1 Wörterbuchberechnung . . . . . . . . . . . . . . . . . . . . . 102 5.2.2 Phonemeklassifikation . . . . . . . . . . . . . . . . . . . . . 103 5.2.3 Verrauschte Phonemeklassifikation . . . . . . . . . . . . . . 105 5.2.4 Bildklassifikation . . . . . . . . . . . . . . . . . . . . . . . . 107 5.2.5 Texturbilderklassifikation . . . . . . . . . . . . . . . . . . . . 109 5.3 Analyse nichtvektorieller Daten . . . . . . . . . . . . . . . . . . . . 112 5.3.1 Selbstorganisierende Karten . . . . . . . . . . . . . . . . . . 113 5.3.2 Reuters Newswire Artikel . . . . . . . . . . . . . . . . . . . 114 5.3.3 Finanzmarkt Daten . . . . . . . . . . . . . . . . . . . . . . . 115 5.3.4 Bilddaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6 Zusammenfassung 121 6.1 NCD und Kolmogorovkomplexität . . . . . . . . . . . . . . . . . . . 121 6.2 Praktische Anwendung der NCD . . . . . . . . . . . . . . . . . . . . 122 6.3 Kompressionsbasierte Mustererkennung . . . . . . . . . . . . . . . . 122 6.4 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Literaturverzeichnis 125 SYMBOLUND ABKÜRZUNGSVERZEICHNIS 〈x, y〉R Das innere Produkt der Vektoren x und y bezüglich des Wörterbuchraums R (Definition 4.2) bzip2 Ein populäres Kompressionsverfahren (Seite 30) C(x) Ein Kompressor (4.5) D Ein Wörterbuch (Seite 68) ETL Extract-Transform-Load: Der Prozess des Einlesens von Daten aus unterschiedlichen Datenquellen in ein Datawarehouse (Seite 38) F Ein beliebiger Vektorraum mit möglicherweise unterschiedlichen Vektorraumnormen (Kapitel 4.2). Wir werden mit diesem Vektorraum meist Funktionenräume assoziieren. gzip Eine populäre Implementierung des LZ77 Algorithmuses (Seite 48) K(x) Beschreibungskomplexität oder auch Kolmogorov Komplexität (Seite 20) KA(y|x) Bedingte Beschreibungskomplexität (Definition 2.3) kontinuierlich Eine Bezeichnung für eine Menge mit überabzählbarem Wertevorrat (Seite 8) dNCD(x, y) Die Normalisierte Kompressionsdistanz zwischen x und y (Definition 2.13) NCD Die Normalisierte Kompressionsdistanz (Definition 2.13) dNID(x, y) Die Normalisierte Informationsdistanz zwischen x und y (Definition 2.10) NID Die Normalisierte Informationsdistanz (Definition 2.10) Ωb Die Menge der binären Zeichenketten (Seite 24) RDS, R Redundante Wörterbuchräume (Kapitel 4.2). S Ein beliebiger (Koordinaten-)Vektorraum mit möglicherweise unterschiedlichen Vektorraumnormen (Kapitel 4.2). 2 Symbole und Abkürzungen
منابع مشابه
Mustererkennung 1996, 18. DAGM-Symposium, Heidelberg, 11.-13. September 1996, Proceedings
When going to take the experience or thoughts forms others, book can be a good source. It's true. You can read this mustererkennung 1996 18 dagm symposium heidelberg 11 13 september 1996 as the source that can be downloaded here. The way to download is also easy. You can visit the link page that we offer and then purchase the book to make a deal. Download it and you can put aside in your own de...
متن کاملAkustische Mustererkennung von Tierstimmen und deren Nutzung für Monitoringaufgaben im Interesse des Naturschutzes
1 Einleitung
متن کاملMustererkennung 1985, DAGM-Symposium, Erlangen, 24.-26. September 1985, Proceedings
Reading is a hobby to open the knowledge windows. Besides, it can provide the inspiration and spirit to face this life. By this way, concomitant with the technology development, many companies serve the e-book or book in soft file. The system of this book of course will be much easier. No worry to forget bringing the mustererkennung 1985 7 dagm symposium erlangen 24 26 september 1985 proceeding...
متن کاملMustererkennung 1986, 8. DAGM-Symposium, Paderborn 30. September - 2. Oktober 1986, Proceedings
New updated! The latest book from a very famous author finally comes out. Book of mustererkennung 1986 8 dagm symposium paderborn 30 september2 oktober 1986 proceedings, as an amazing reference becomes what you need to get. What's for is this book? Are you still thinking for what the book is? Well, this is what you probably will get. You should have made proper choices for your better life. Boo...
متن کامل